Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Ajout paramètre "drop" et résumé du crawler à la fin #7

Merged
merged 7 commits into from
Aug 12, 2012

Conversation

sebclick
Copy link
Contributor

Ajout d'un paramètre drop pour supprimer un attribut d'une url (par ex un identifiant de session).
Ajout d'un résumé à la fin (en mode debug) avec le nb d'url trouvée, nb d'url 200 ok, ...

Erreur dans l'init du tableau.
Les URLS qui ne répondent pas 200 OK ne sont plus listés dans le
sitemap.
Les URLS qui ne répondent pas 200 OK ne sont vérifiés qu'une seule fois
(car ajouté à la liste crawled).
Le paramètre drop permet de supprimer un attribut d'une URL avec une
expression régulière.
Ajout de log pour avoir le nombre d'erreurs HTTP par code et le nombre
d'url bloquées par le fichier robots.txt
Ajout d'un exemple pour expliquer la configuration du paramètre drop.
Commité par erreur, je le supprime.
Cette nouvelle liste permet d'"optimiser" le traitement et de mieux
comptabiliser les URL
c4software added a commit that referenced this pull request Aug 12, 2012
Ajout paramètre "drop" et résumé du crawler à la fin
@c4software c4software merged commit 371b91f into c4software:master Aug 12, 2012
c4software pushed a commit that referenced this pull request Apr 16, 2017
Update from origin c4software
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

Successfully merging this pull request may close these issues.

2 participants